Balance Adaptativo de Pérdida para GRPO Robusto en Recomendación Generativa AdaGRPO optimiza modelos generativos con balance adaptativo de pérdida y recompensa, mejorando CTR y retención en e-commerce. 2026-06-09 · 2 min